クラスメソッド データアナリティクス通信(機械学習編) – 2023年5月号
データアナリティクス事業本部の鈴木です。
クラスメソッド データアナリティクス通信(機械学習編) の2023年5月号です。2023年4月分のアップデート情報をお届けできればと思います。
AWSでは生成系AIを使用した構築のための新ツールが発表されました!Amazon RekognitionのFace Liveness機能で顔認証においてなりすまし抑止が簡単に実現できるようになったのも驚きでした。
Amazon Personalizeのアップデートでは、類似アイテムのレコメンデーションで人気度合いのチューニングが利用可能になったのも非常に便利ですね。人気アイテムばかりレコメンドされてしまって別の作品をレコメンドしたいことや、逆に人気アイテムもレコメンド結果に含めたいことはよくある悩みだと思うので、これにアプローチできるのは強力です。
Google CloudではVertex AIの予測機能の運用が楽になるように、Cloud Loggingとの連携や設定更新が容易になったのが印象的でした。
それでは各々のアップデートを振り返って行ければと思います。
※ アップデートは機械学習チームメンバー内で業務に取り入れられそうかを中心に確認しているので、一部取り上げられていないものもあるかもしれませんが、参考になりましたら幸いです。また、複数のパブリッククラウドのサービスを取り上げますが、比べたりする意図はありません。
AWS
Amazon SageMakerのアップデート
Amazon SageMaker CanvasがNLPとCVのユースケースに対応
Amazon SageMaker Canvasが、NLPとCVのユースケースに対応しました。 Amazon Rekognition、Amazon Textract、Amazon Comprehendを含むAWSのAIサービスにより提供されるすぐに使用可能なモデルが利用できるようになっています。また、特定の画像やテキスト分類のユースケース用にカスタムモデルを作成できるようになりました。
SageMaker Canvasの予測をAmazon QuickSightと共有することが可能に
Amazon SageMaker CanvasのMLモデルからの予測を、Amazon QuickSightと共有できるようになりました。ビジネスアナリストが、コードを一行も書くことなく、SageMaker Canvasで生成された予測をQuickSightで活用できるようになります。
Amazon SageMaker with TensorBoardが一般提供開始に
ホストされたTensorBoardを提供するAmazon SageMaker with TensorBoardがGAになりました。 Domain単位でホストされ、トレーニングジョブの結果を1カ所で管理することが可能になります。 詳細については開発者ガイドのUse TensorBoard to Debug and Analyze Training Jobs in Amazon SageMaker - Amazon SageMakerページをご覧ください。
ホスティングするためにml.r5.largeインスタンスが使われます。 米国東部 (バージニア北部)、米国東部 (オハイオ) 、米国西部 (オレゴン) 、欧州 (フランクフルト) および欧州 (アイルランド)にて利用可能で、東京リージョンではまだ利用できません。
ローカル環境で作成したMLコードを最小限の変更でトレーニングジョブとして実行できるように
Amazon SageMaker Python SDKを使って、ローカル環境で作成したMLコードを、最小限のコードの変更でSageMakerトレーニングジョブとして実行できるようになりました。 コードにPythonデコレータを追加するだけで、そのコード、データセット、ワークスペース環境の設定を受け取るようになります。
AWS Machine Learning Blogの記事とサンプルノートブックは以下になります。
Amazon SageMaker Inference Recommenderが操作性の向上と新機能の提供を開始
Amazon SageMaker Inference Recommender(IR)が操作性の向上と新機能の提供を開始しました。以下が紹介されていたアップデート内容です。
- Amazon CloudWatchとのより深い統合
- IR実行時のエラーを特定するための新しいログ・グループによるIRログを提供
- スループットやレイテンシーだけでなく、P99レイテンシーにおける同時接続ユーザー、CPU・メモリ使用率など、主要なメトリクスも公開されるように
- IRジョブを実行するためのpython SDKのサポート
- 選択したVPCサブネット内でIRジョブを実行可能に
- 新しいAPIを介した既存のエンドポイントでのロードテスト実行
- IRを簡単に始めるためのいくつかのユーザビリティ改善
Feature Storeのオンラインストアからレコードを永久に削除する機能がサポート
Amazon SageMaker Feature Storeのオンラインストアからレコードを永久に削除する機能がサポートされました。レコードを削除する際に、ソフト削除とハード削除を選択できるようになりました。
非同期推論のレスポンスをS3およびSNSで受け取ることができるように
SageMakerの非同期推論の失敗のレスポンスをS3で受け取ることができるようになりました。また成功/失敗のレスポンスをSNSの通知で受け取ることができるようになりました。
Collectionsが発表
Amazon SageMaker Model Registryに登録された機械学習モデルを整理する新機能として、Collectionsが発表されました。 登録されたモデルのうち互いに関連するものを、「NLP-models」や「CV-models」のようにグループ化し、階層的に整理することが可能です。Amazon SageMaker Studio UIまたはPython SDKから使用できます。
Amazon Rekognitionのアップデート
Face Liveness機能を提供
顔認証においてなりすましを抑止するFace Liveness機能を提供しました。この機能は、ユーザーの短い自撮りビデオを分析し、そのユーザーが本物か、なりすましかを判定します。なりすましについては、具体的には以下を検出するそうです。
- カメラに提示された偽物(印刷された写真、デジタル写真やビデオ、3Dマスクなど)
- 映像化された偽物(事前に録画された本物や、ディープフェイクのビデオなど)
AWS Amplify SDKを使用して、React Web、ネイティブiOS、ネイティブAndroidアプリケーションに簡単にFace Livenessを追加できるそうです。
AWSで生成系AIを使用した構築をするためのツールが発表
生成系AIアプリケーションの開発に関するもの
以下の2サービスが発表されました。
- Amazon Bedrock:APIを介して注目されているAIスタートアップ企業やAmazonが提供する基盤モデル(FM)を利用できるようにするサービス。モデルのカスタマイズの容易さは最も重要な機能の1つ。
- Amazon Titan:大規模なデータセットで事前にトレーニングされた強力な汎用モデル。当面は自然言語処理のタスクに関するものと、埋め込み表現を生成するものの2つの基盤モデルを提供する予定。
以下のAmazon Web Services ブログにも概要が紹介されています。
Amazon EC2 Inf2インスタンスが一般提供が発表
推論専用チップとして開発されたAWS Inferentia2を搭載したInf2インスタンスの一般提供が発表されました。
前世代のInferentia搭載インスタンスと比較して、スループットは最大4倍、レイテンシーは最大10分の1となったようです。またアクセラレーター間の超高速接続により、大規模な分散型の推論がサポートされました。
推論のコストパフォーマンスはほかの同等のAmazon EC2インスタンスと比較して最大40%向上し、クラウド上の推論の最低コストを実現します。
Amazon CodeWhispererの一般提供が開始
コーディングの領域でソフトウェア開発を支援するため、Amazon CodeWhispererの一般提供が開始されました。特にAmazon CodeWhispererは責任あるコーディングの支援に重きをおいています。セキュリティスキャンを内蔵し、セキュリティに関するベストプラクティスを満たしていない場合に修正案を提示するそうです。また参照やライセンスが必要な可能性のあるオープンソースのコードに似たコード提案は、除外したりフラグを立てることができるとのことです。
GA後にはDevelopersIOでもご紹介しました。
Amazon Personalizeのアップデート
類似アイテムのレコメンデーションで、人気度合いのチューニングが利用可能に
類似アイテムレシピ(aws-similar-items)で人気度チューニングが可能になりました。 人気アイテムを強調したり、逆に人気アイテムは強調せずに選択した商品とよく似ているもののあまり知られていないアイテムを表示したりという調整が可能になります。 人気が類似アイテムのレコメンデーションに与える影響を、より細かくコントロールし、モデルをチューニングできるようになります。
Amazon SageMaker Data Wranglerとの統合
Amazon PersonalizeとAmazon SageMaker Data Wranglerとの統合により、データの準備が簡素化されました。Amazon SageMaker Data Wranglerでデータを準備できるようになったことで、コードをほとんど書かずに40以上の対応データソースからデータをインポートしAmazon Personalizeで使用できます。
Kafka Sinkコネクタをサポート
Kafka Sinkコネクタをサポートしました。Apache Kafkaクラスターからデータを簡単に取り込むことができるようになり、リアルタイムのデータ取り込みが簡単になりました。詳細については下記のアナウンスをご確認ください。
Amazon Personalize Kafka Sinkコネクタの利用は、オープンソースのプラグインコードをダウンロードしてパッケージ化し、プラグインのディレクトリパスを設定し、Connect Rest APIを使用してコネクタを作成できるとのことです。Amazon Managed Streaming for Apache Kafkaの場合もデベロッパーガイドのリンクが記載されています。
Amazon Comprehendのアップデート
ドキュメント分類用のAmazon Comprehend APIが、ドキュメントのレイアウトを使用するようになり精度が向上しました。 PDF文書、Microsoft Wordファイル、および画像を使用して、カスタム分類モデルをトレーニングできるようになります。
レイアウト情報をサポートするのは、処理するドキュメントが英語の場合ですが、機能自体はAmazon Comprehendが利用可能な全てのAWSリージョンでご利用いただけます。
AWS Machine Learning BlogとAPIの変更情報は以下です。
Amazon Textractのアップデート
AnalyzeDocumentのテーブル機能にtable title・section titles・table footers・summary cellsの要素が追加されました。テーブルの種類を識別する機能も追加されました。
保険・金融サービス・住宅ローン・製造業でよく見られる文書について、精度が向上しました。
Bulk Document Uploader機能の発表
Bulk Document Uploader機能が発表されました。ユーザー独自の複数の文書で、簡単にTextractの機能をテストできるようになりました。 各APIを使用して、リクエストごとに最大150件のドキュメントの処理をサポートしています。(各APIとは、DetectDocumentText API、AnalyzeDocument API、AnalyzeExpense APIのこと。)
S3バケットを経由してドキュメントを送信するか、ローカルのコンピューターから直接ドキュメントをTextractにアップロードすることができます。 結果はZIPファイルが提供されます。標準のTextractのJSONレスポンスに加え、結果を簡単に評価するための信頼度スコアの記載があるCSVファイルが含まれるそうです。
Google Cloud
Vertex AIのアップデート
Vertex AI Predictionのアップデート
Batch predictionsジョブのログがCloud Loggingで確認できるようになりました。
Vertex AI Predictionで再デプロイする必要なく、スケーリングやコンテナのロギング設定を更新することができるようになりました。
Vertex AI Matching Engineのアップデート
ベクトル類似性マッチング(近似最近傍探索)サービスであるVertex AI Matching Engineが、パブリックエンドポイントへのインデックスのデプロイをプレビュー でサポートしました。
Vertex AI Model Registryのアップデート
Vertex AI Model Registryで、リージョン間のモデルコピーをプレビューでサポートしました。異なるリージョンで同じモデルを使用したい場合にとても助かる機能ですね!
Timeseries分析情報APIのアップデート
Timeseries分析情報APIが一般提供開始になりました。何十億ものイベントをリアルタイムで予測し、異常を検出することができます。
Document AIのアップデート
Document AI Workbench Custom Document Extractor(CDE)の改善のため、以下の機能がリリースされました。
- 新たに42言語が追加でサポートされました。
- デプロイと製品環境を簡単に管理できるようにするため、プロジェクトに渡ってプロセッサーバージョンを取り込むようにしました。
- 訓練データをすみやかに準備できるよう、ドキュメントに自動でラベル付けできるようになりました。
また、以下の機能強化が発表されました。
- asynchronous prediction APIで200ページまでのドキュメントからデータを取得できるようになりました。
- チェックボックスを抽出する精度が向上しました。
Document AI Warehouseのアップデート
Document AI Warehouse UIにて、Datetimeプロパティによるフィルタリングがサポートされました。
Cloud Storage Ingest Pipelinesで、ドキュメントをスキップするskip_ingested_documents
フラグを追加しました。
イベント情報
クラスメソッドで開催している機械学習・データ活用に関するイベント情報です。
相談会
クラスメソッドのアナリティクス分野の支援では、AWS、Google Cloudを中心としたクラウド上でのデータ分析基盤環境づくりにおいてトータルでサポートしています。
このようなことでお困りではないですか?
企業内に点在するデータを1箇所にまとめて分析したい クラウド上で分析基盤を導入したい・・・ データを活用したいが、具体的に何から始めたらいいかわからない 機械学習相談会のお申込みはこちらです。お気軽にご相談ください。
データ分析相談会のお申込みはこちらです。
最後に
2023年4月に発表された、AWSとGoogle CloudのML機能のアップデートについて、メンバーでピックアップした情報についてご紹介しました。
AWSでは、生成系AIを使用した構築をするためのツールが発表されました!RekognitionのFace Liveness機能や、類似アイテムレシピの改善など、既存サービスを非常に便利にする機能も追加されていますね。
Google CloudではVertex AIを使った推論機能の運用がさらにしやすくなったほか、プレビューではあるもののリージョン間のモデルのコピーがサポートされたのはとても嬉しいアップデートでした。
データアナリティクス通信(機械学習編) - 2023年5月号は以上です。